33 research outputs found

    Structuration de données par apprentissage non-supervisé : applications aux données textuelles

    Get PDF
    En fouille de données, le succès d'une méthode tient au fait qu'elle permet de répondre par un algorithme intuitif à un besoin pratique bien théorisé. C'est avec cet éclairage que nous présentons un ensemble de contributions, élaborées durant ces dix dernières années, et répondant au besoin pratique de structurer automatiquement un ensemble de données. Dans un premier temps nous proposons de nouveaux modèles théoriques de structuration complexe en classes d’individus ; il s’agit alors d'extraire automatiquement d'un ensemble de données, des structures de classification plus proches de leur organisation réelle telle qu’observée (classification recouvrante, formes symétriques), de rendre ces structures à la fois robustes (tolérance au bruit) et manipulables par l’homme (visualisation, paramétrage) et enfin d’être en mesure de les expliquer (sémantique des classes). Dans un second temps nous nous intéressons aux données textuelles via la mise en oeuvre de modèles rendant compte de la structure thématique d’une collection de textes courts dans un contexte de recherche d’information ; enfin, nous présentons un méta-modèle permettant d’apprendre automatiquement un modèle de structuration sémantique d’un ensemble de termes

    Passage aux noyaux en classification recouvrante

    No full text
    National audienceLa classification recouvrante correspond à un domaine d'étude très actif ces dernières années et dont l'objectif est d'organiser un ensemble de données en groupes d'individus similaires avec la particularité d'autoriser des chevauchements entre les groupes. Parmi les approches étudiées nous nous intéressons aux extensions recouvrantes des modèles de type moindres carrés et constatons les difficultés théoriques et pratiques liées à leur adaptation aux noyaux. Nous formulons alors une nouvelle définition ensembliste pour caractériser un recouvrement de plusieurs classes, nous montrons que cette modélisation permet le recours aux noyaux et nous proposons une solution algorithmique efficace pour répondre au problème de la classification recouvrante à noyaux

    Une méthode de classification non-supervisée pour l'apprentissage de règles et la recherche d'information

    No full text
    Data clustering is a major, but a hard, task in the unsupervised learning domain. This process is used in various context such as Knowledge Discovery, representation or description simplification of a data set.In this study, we present the clustering algorithm PoBOC which organizes a dataset into overlapping classes which naturally match with real concepts of data. This clustering method is used in two very different applications.- In the supervised learning field, the induction of a set of propositional and first-order rules is performed by first organizing each class into sub-classes.- In the Information Retrieval field, the ambiguities from natural langage naturally induce overlaps between thematic.On these two research domains, the organization of a dataset into overlapping clusters is validated with suitable experimental studies.Le regroupement d'objets, dans un cadre non-supervisé, est une tâche importante et difficile en apprentissage. Ce processus intervient dans des contextes variés tels que la découverte de connaissances, la simplification dans le représentation ou la description d'un ensemble de données.Nous proposons, dans cette étude, l'algorithme de clustering PoBOC permettant de structurer un ensemble d'objets en classes non-disjointes. Nous utilisons cette méthode de clustering comme outil de traitement dans deux applications très différentes.- En apprentissage supervisé, l'organisation préalable des instances apporte une connaissance utile pour la tâche d'induction de règles propositionnelles et logiques.- En Recherche d'Information, les ambiguïtés et subtilités de la langue naturelle induisent naturellement des recouvrements entre thématiques.Dans ces deux domaines de recherche, l'intérêt d'organiser les objets en classes non-disjointes est confirmé par les études expérimentales adaptées

    Structuration de données par apprentissage non-supervisé : applications aux données textuelles

    No full text
    En fouille de données, le succès d'une méthode tient au fait qu'elle permet de répondre par un algorithme intuitif à un besoin pratique bien théorisé. C'est avec cet éclairage que nous présentons un ensemble de contributions, élaborées durant ces dix dernières années, et répondant au besoin pratique de structurer automatiquement un ensemble de données. Dans un premier temps nous proposons de nouveaux modèles théoriques de structuration complexe en classes d’individus ; il s’agit alors d'extraire automatiquement d'un ensemble de données, des structures de classification plus proches de leur organisation réelle telle qu’observée (classification recouvrante, formes symétriques), de rendre ces structures à la fois robustes (tolérance au bruit) et manipulables par l’homme (visualisation, paramétrage) et enfin d’être en mesure de les expliquer (sémantique des classes). Dans un second temps nous nous intéressons aux données textuelles via la mise en oeuvre de modèles rendant compte de la structure thématique d’une collection de textes courts dans un contexte de recherche d’information ; enfin, nous présentons un méta-modèle permettant d’apprendre automatiquement un modèle de structuration sémantique d’un ensemble de termes

    Apprentissage d'espaces prétopologiques dans un cadre multi-instance pour la structuration de données

    No full text
    International audienceNous présentons dans cet article une méthode supervisée de structu-ration (en DAG) d'un ensemble d'éléments. Étant donnés une structure cible (à reconstruire) et un ensemble de relations sur ces éléments, il s'agit d'apprendre un modèle de structuration par combinaison fine des relations initiales. Nous for-malisons ce problème dans le cadre de la théorie de la prétopologie qui permet d'atteindre des modèles de structuration complexes. Nous montrons d'une part que le caractère non-idempotent de la fonction d'adhé-rence (qui définit un espace prétopologique) nécessite de recourir au formalisme de l'apprentissage supervisé multi-instance et proposons d'autre part un algo-rithme d'apprentissage reposant sur le dénombrement des « sacs » positifs et négatifs plutôt que sur un ensemble d'apprentissage standard (trop grand dans ce contexte). Une première expérimentation de cette méthode est présentée dans un cadre applicatif de fouille de textes, consistant à apprendre un modèle de structuration taxonomique d'un ensemble de termes

    Vers une classification conceptuelle recouvrante

    No full text
    National audienceLa classification conceptuelle (non-supervisée) d'un ensemble de don-nées décrites par un tableau binaire est une tâche difficile, réalisée généralement à l'aide d'heuristiques gloutonnes et/ou par relaxation de la contrainte de partition. Plutôt que de tolérer les recouvrements/chevauchements entre concepts par nécessité, nous étudions la possibilité de les placer au coeur du processus en considérant la recherche d'une " couverture conceptuelle " pertinente. Nous proposons, dans le formalisme de l'analyse formelle de concepts (AFC), une première définition associée à une stratégie de recherche d'une classification conceptuelle recouvrante
    corecore